Programmazione di processori massivamente paralleli: Un approccio pratico: Oltre gli array lineari: Scalabilità verso dati multidimensionali

Benvenuto in Il grande passaggio. Nella programmazione per CPU, definiamo come iterare; nel GPGPU, definiamo cosa sembra un'iterazione. Questo cambiamento dal modello basato su istruzioni a quello basato sui dati è alimentato dall' astrazione del kernel.

1. Il progetto global

Utilizzando il __global__ qualificatore, non stai scrivendo una funzione: stai progettando un progetto scalabile. Un'unica esecuzione del kernel rappresenta un'unità autonoma di lavoro, consentendo alla GPU di orchestrare migliaia di compiti identici su un numero elevatissimo di core senza gestione manuale dei thread.

2. Il risolutore di indirizzi globale

Come fa un singolo thread tra milioni a trovare il proprio obiettivo? Utilizza un contratto deterministico noto come formula di indicizzazione:

$$\text{threadID} = \text{blockIdx.x} \times \text{blockDim.x} + \text{threadIdx.x}$$

Questa formula agisce come un sistema di coordinate, collegando i dati logici del software (l'array) all'architettura fisica dell'hardware (blocchi e thread).

3. Configurazione dell'esecuzione

I parametri <<<B, T>>> definiscono la forma della griglia. Ciò garantisce Scalabilità trasparente: il tuo codice esegue la stessa logica indipendentemente dal fatto che l'hardware abbia 2 SM o 80 SM.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary role of the __global__ qualifier?

To define a function that runs on the CPU and is called by the GPU.

To mark a function as a kernel that is callable from the host and executes on the device.

To synchronize all threads across the entire GPU grid.

To allocate memory in the global memory space.

QUESTION 2

If blockIdx.x = 2, blockDim.x = 256, and threadIdx.x = 10, what is the global index?

266

512

522

778

QUESTION 3

What does 'Transparent Scalability' imply in CUDA?

The memory automatically scales with the size of the input array.

The same code can run on different GPUs with varying SM counts without modification.

Threads can see into the registers of other threads.

The kernel speed increases linearly with the clock speed of the CPU.

QUESTION 4

Why is the if (i < n) check necessary in a kernel?

To prevent the GPU from overheating.

To ensure threads do not access memory outside the valid array bounds.

To check if the kernel is running on the correct SM.

To synchronize memory access between threads.

QUESTION 5

Which variable represents the number of threads within a single block?

gridDim.x

blockIdx.x

blockDim.x

threadIdx.x

1. Il progetto __global__

2. Il risolutore di indirizzi globale

3. Configurazione dell'esecuzione

1. Il progetto global